Online shoppers intention zawierają informację o aktywności użytkowników w sesji i czy w trakcie sesji użytkownik dokonał jakiegoś zakupu
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns
import pandas_profiling
import copy
from sklearn.decomposition import PCA
import sklearn.metrics
from sklearn import manifold
W celu pozyskania podstawowych informacji użyjemy narzędzia do zautomatyzowanej eksploracji danych pandas_profiling.
df=pd.read_csv("online_shoppers_intention.csv")
df=df.info()
<class 'pandas.core.frame.DataFrame'> RangeIndex: 12330 entries, 0 to 12329 Data columns (total 18 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Administrative 12330 non-null int64 1 Administrative_Duration 12330 non-null float64 2 Informational 12330 non-null int64 3 Informational_Duration 12330 non-null float64 4 ProductRelated 12330 non-null int64 5 ProductRelated_Duration 12330 non-null float64 6 BounceRates 12330 non-null float64 7 ExitRates 12330 non-null float64 8 PageValues 12330 non-null float64 9 SpecialDay 12330 non-null float64 10 Month 12330 non-null object 11 OperatingSystems 12330 non-null int64 12 Browser 12330 non-null int64 13 Region 12330 non-null int64 14 TrafficType 12330 non-null int64 15 VisitorType 12330 non-null object 16 Weekend 12330 non-null bool 17 Revenue 12330 non-null bool dtypes: bool(2), float64(7), int64(7), object(2) memory usage: 1.5+ MB
Nie ma braków danych Zmienna Month i VisitorsType (Returning, New, Other) typu object Zmienna Weekend i Revenue typu bool.
Zmienne Administrative, Informational, ProductRelated przedstawiają ile stron danego typu odwiedził użytkownik
Administrative_Duration, Informational_Duration, ProductRelated_Duration ile czasu w sumie użytkownik spędził na stronie danego typu
BounceRates - procent stron które użytkownik odwiedził bez żadnej dalszej interakcji
SpecialDay - jak blisko specjalnego dnia była sesja
df=pd.read_csv("online_shoppers_intention.csv")
df=df.dropna()
df.profile_report()